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Інверсний контекстно-асоціативний метод 
автоматизованої орфокорекції 


Теоретично обгрунтовано та запропоновано інверсний контекстно-асоціативний метод автоматизованого 
виправлення орфографічних помилок, який забезпечує підвищення швидкості та точності роботи 
відповідного програмного забезпечення. Дано визначення показника результативності функціонування 
орфокоректора - точності його роботи. Показана ефективність застосування запропонованого методу для 
виправлення орфографічних помилок у масиві гетерогенних словосполучень за критеріями швидкості та 
точності корекції. 


Вступ 


На сучасному етапі розвитку суспільства, в умовах зростання потреби у підвищенні 
рівня інтелектуалізації інформаційних технологій великого значення набула проблема 
забезпечення ефективної комп'ютеризованої обробки природномовних текстів. 

Важливою задачею систем автоматичної обробки текстів (АОТ) різного при- 
значення є перевірка орфографії в текстових даних. На даний момент актуальним є 
дослідження програмного забезпечення орфокорекції з точки зору виправлення по- 
милок, адже задача виявлення помилок досліджувалась триваліший час і розв'язана 
у більшій мірі |1). 

Сучасні орфокоректори характеризуються невисоким рівнем автоматизації, 
орієнтацією на виправлення однократних помилок, відсутністю забезпечення семан- 
тичної узгодженості варіантів виправлення та контексту спотвореного слова | 11, 121. 
Ці недоліки зумовлюють низьку ефективність роботи коректорів, основним крите- 
рієм оцінки якої на сьогоднішній день виступають точність та швидкість обробки 
текстових даних. 

Усунення визначених вище вад потребує модифікації існуючих алгоритмів 
виправлення помилок у напрямку залучення контекстної інформації та лексико-се- 
мантичних словникових ресурсів для її обробки. Але на даний момент в програмних 
засобах орфокорекції методика врахування контексту спотвореного слова за допомо- 
гою семантичного інструментарію є недостатньо розробленою, а отже, дослідження 
даного питання видається актуальним. 


1. Постановка задачі 


На сьогоднішній день розробка автокоректорів є окремим широко досліджуваним 
напрямом у галузі створення систем АОТ. Але, незважаючи на це, способи побудови 
ефективних програмних засобів корекції спотворених слів здебільшого визначаються 
загальними характеристиками сучасного етапу розвитку систем ДОТ та комп'ютерної 
техніки взагалі. 
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1. З огляду на постійне зростання обсягів пам'яті та швидкодії сучасних комп'ю- 
терів основними вимогами до систем ДОТ сьогодні є точність та швидкість їх роботи. 
Це сприяє все більшому розповсюдженню використання словників при аналізі даних, 
яке раніше було неможливим через труднощі, зумовлені підвищеними вимогами до 
обсягу пам'яті в запам'ятовуючих пристроях. Словниковий підхід забезпечує отримання 
високоточних результатів обробки текстів |2|, |3|. Точність орфокорекції у наукових 
джерелах визначається як відсоток спотворених слів, для котрих програмою підібрано 
вірний варіант виправлення (4), або як імовірність входження правильного варіанта до 
набору гіпотез |51. 

2. На відміну від програмного забезпечення кін. ХХ ст., коли основу машинної 
обробки тексту складав морфологічний аналіз, теперішні системи широко викори- 
стовують ресурси та методи синтаксичного та семантичного аналізу (для автома- 
тичного анотування, реферування, машинного перекладу тощо). 

3. Для забезпечення можливості врахування значення слів системами АОТ у 
більшості випадків розробники віддають перевагу аналізу контексту, а не семантики 
граматичної структури окремих слів (61. 

4. Загальноприйнятою схемою аналізу тексту залишається так звана послідовна 
схема (морфологічний, синтаксичний, семантичний рівні аналізу), коли результати 
кожного попереднього етапу є вихідною інформацією для наступних |6). 

Можна сказати, що всі наведені характеристики систем АОТ властиві сучасним 
автокоректорам у тій чи іншій мірі |31, (71, 131. Особливу увагу слід приділити схемі 
аналізу текстових даних, якої дотримуються у своїй роботі системи АОТ. Справа у 
тому, що етапи аналізу природномовного тексту не є функціонально ізольованими, 
хоч 1 виконуються зазвичай послідовно. Згідно з цим, морфологічний аналіз може не 
лише надавати вихідні дані для синтаксичного та семантичного аналізу, але і 
використовувати результати останніх (9). Така тенденція до порушення класичного 
порядку аналізу текстів сьогодні вже спостерігається у системах ДОТ (1, |91. Але 
досі обробка контексту спотвореного слова семантичним інструментарієм має місце 
тільки на кінцевому етапі процесу комп'ютеризованої орфокорекції. 

Таким чином, виходячи із наведених вище аргументів, метою даної статті стало 
підвищення швидкості та точності автоматизованого виправлення орфографічних по- 
милок відповідними програмними засобами за рахунок створення контекстно- 
асоціативного методу корекції спотворених слів. 

У відповідності до поставленої мети задачами дослідження є: 

- вивчення способів реалізації етапів процедури орфокорекції на предмет виявлення 
можливостей щодо підвищення її ефективності; 

-- розробка контекстно-асоціативного методу орфокорекції для підвищення ефективності 
роботи відповідного програмного забезпечення за показниками точності та швидкості 
виправлення помилок; 

- аналіз результатів експериментального дослідження ефективності запропонованого 
контекстно-асоціативного методу орфокорекції. 


2. Схема автоматизованого виправлення 
орфографічних помилок 


Загальноприйнята схема автоматизованої корекції спотвореного слова (11, 110) 
передбачає реалізацію: 
- етапу висунення гіпотез (вірогідних варіантів виправлення помилки); 
- етапу перевірки гіпотез та ухвалення однієї (декількох) з них як виправлення, що 
пропонується програмою до внесення. 
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На першому етапі послідовно виконуються підбір первинної множини варіантів 
виправлення із словника та попередня фільтрація її вмісту. Для цього використовуються 
найпростіші та найшвидші методи пошуку варіантів корекції слова (наприклад, підбір 
гіпотез за критерієм альфакоду, довжини слова, збігу першої літери слова (10) тощо). 

На другому етапі виконується перевірка гіпотез на подібність до спотвореного 
слова за певними критеріями. Тут задіяні більш складні, але, водночас, і більш точні 
методи аналізу набору гіпотез (наприклад, відстань редагування Левенштейна). 

Таким чином, умовне віднесення методів визначення варіантів виправлення 
орфографічних помилок до певного етапу процесу орфокорекції здійснюється на 
основі їх характеристик (швидкості, точності тощо). 

З іншого боку, методи висунення та перевірки гіпотез виправлення за своєю 
суттю передбачають фільтрацію заданої множини слів, адже в результаті застосу- 
вання кожного з них відбувається звуження поточної множини варіантів корекції 
спотвореного слова. З огляду на це введемо функцію фільтрації множини слів за 
певною ознакою /їЛег та визначимо її властивості. 

Визначення І. Функція /їПег: Й, -з» УИ, називається фільтром множини И/, 


якщо за її допомогою з елементів И/, проводиться формування множини слів У, , які 


відповідають певному критерію схожості зі спотвореним словом (Й, с. Й, ). 
Лек: Й, -» М, М, с М, (1) 


де ИИ,, Й, - множини природномовних слів. 

Виходячи з фізичного змісту функції /ї/ег, її властивостями є: 

Т) адитивність: /йШшег( Й, 12 Й» ) « /Шег( Й, ) 2 /їШег(И»)); (2) 

2) комутативність композиції фільтрів: при застосуванні композиції функцій 
Е «/Шег, о /Пег,, з 9...9 /Пет» о /їНеп Й, -» М, Й, с Й, до множини слів И/, від 
перестановки складових /їЛег місцями результат у, не змінюється, адже у будь- 
якому випадку всі слова, які не відповідають хоча б одному критерію відбору, 
будуть вилучені з множини (й ; 

3) якщо Й, с. И/,,, то час, необхідний для виконання фільтрації даних множин, 
характеризується нерівністю 


Гена 4) б Лнег(ї (3) 


еї І - час фільтрації множин ИЙ/,, Й/, за допомогою функції /іПег. 
ЛПиек(Й дл) Лиен(ї 
Оскільки всі функції, які реалізують методи відбору та перевірки гіпотез виправ- 
лення, є фільтрами, їм притаманні властивості визначеної вище функції /їЙег. 
Виходячи з вищенаведеного, пропонується внести уточнення в подання схеми 
орфокорекції: будемо вважати процес визначення варіантів виправлення таким, що 
складається із застосування композиції функцій фільтрації до множини слів И/,,,, 


яка міститься у словнику. Позначимо послідовність фільтрів як 


ЕШТЕВ5 - /, о Р, цочо ого ро ДІЙ З 


геїт 2 


т», (4) 
де ДИТ ЗМ (172,..., ті) - фільтр множини слів, отриманої у результаті виконання 
Ла (для Л зчУНОЖНин Й па у Ж а 


варіанти виправлення за ознаками їх близькості до спотвореного слова. 


- множина слів, визначених коректором як можливі 
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Перш ніж приступити до пошуку місця семантичної складової у схемі 
орфокорекції, реалізація якої забезпечує найбільш ефективну роботу програмного 
коректора за критеріями точності та швидкості, зупинимось на визначенні точності 
результату виправлення помилок. 

Сучасні словникові ресурси характеризуються великим обсягом даних |6Ї, що 
ускладнює однозначний підбір з них правильного варіанта написання спотвореного 
слова. Тому виправданим способом оцінювання точності орфокорекції є її 
обчислення як частки спотворених слів, до множини варіантів виправлення яких 
входить вірна словоформа |5|. Але для забезпечення високого рівня автоматизації 
обробки текстових даних потрібно не тільки збільшення імовірності входження 
правильного варіанта виправлення до набору гіпотез, але й зменшення кількості 
знайдених нерелевантних гіпотез. Через це необхідним є знаходження способу 
оцінювання ефективності орфокорекції за критерієм точності, який забезпечив би 
врахування частки нерелевантних слів у множині варіантів виправлення. 

У даній статті йдеться про визначення гіпотез шляхом їх пошуку в словнику (а не 
за допомогою безсловникової генерації), тому при визначенні точності орфокорекції 
пропонується провести певні паралелі із оцінками результатів роботи програм у 
теорії інформаційного пошуку |6). 

Визначення 2. Під точністю машинної орфографічної корекції спотвореного 
слова будемо розуміти відношення числа запропонованих орфокоректором вірних 
варіантів написання слова (це одиниця або нуль) до загальної кількості підібраних слів. 


Ж он СТ, 

РВЕСІЗІОМ зон ек, (5) 
а | 

де //. |  - множина вірних варіантів корекції спотвореного слова у словнику. 


сок 

Відповідно до формули (3), для того, щоб досягти високого показника точності 
роботи орфокоректора, необхідно, по-перше, забезпечити постійне входження 
вірного слова до сформованого масиву варіантів виправлення (|, Й, | - 1), а 


согг теї г 
по-друге, - зменшити загальну кількість слів, які пропонуються програмою як 
найбільш вірогідні кандидати виправлення помилки (//, ,,.). 


3. Місце семантичної складової у схемі виправлення 
орфографічних помилок 


Згідно з класичною послідовністю обробки текстових даних (морфологічний, 
синтаксичний та семантичний аналіз), семантичні фільтри набору гіпотез мають стояти 
наприкінці композиції КИ.ТЕН5 (4). Відповідно ж до сучасних тенденцій щодо зміни 
загальноприйнятого порядку етапів обробки текстів, можливим є підвищення ефектив- 
ності програмного орфокоректора у випадку перенесення перевірки гіпотез за семан- 
тичними критеріями ближче до початку К/І.ТЕК5. Проведемо дослідження впливу зміни 
місця семантичної складової у схемі орфокорекції на показники точності та швидкодії 
програмного коректора. 

Формування множини гіпотез виправлення за семантичним критерієм із заданого 
набору слів здійснюватимемо за допомогою функції /)7,,,- Визначимо дану функцію як 
фільтр, який застосовується для відбору із вихідного набору слів тих словоформ, що 
узгоджені з контекстним оточенням спотвореного слова. 
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Розглянемо 3 варіанти розміщення /.,,, У схемі визначення варіантів виправлення: 


сопі 


1) контекстно-асоціативну фільтрацію гіпотез як останній етап процесу підбору 
варіантів виправлення: 


Леон она он / Я з т»зі, (6) 


2) проведення відбору гіпотез за ознакою їх відповідності змісту заданого кон- 
тексту в середині процесу орфокорекції: 
Гоа он? Лак 9 Да оо о ДЛ Тра Й т ЗТ, (7 
3) висунення гіпотез за критерієм їх семантичної близькості до контексту спо- 
твореного слова (перенесення Лот на початок схеми корекції): 
Ди Ди оно 9 Л 9 Лот ла Й» т? ЗТ. (3) 
Твердження І. Зміна розташування фільтра /7,, у схемі орфокорекції не 


впливає на точність роботи коректора (РКЕСТЗІОМ). 

Доведення. Дане твердження є коректним, виходячи з властивості (2) функцій 
класу /ег: перестановка фільтрів місцями не приводить до зміни результуючої 
множини слів, а отже, 1 рівень точності не змінюється, що 1 потрібно було довести. 

Тепер визначимо, при якому з трьох наведених варіантів розміщення /.,, У 


опі 


схемі визначення варіантів виправлення (6) - (83) і за яких умов буде досягатися 
найвища швидкодія орфокоректора. 

Розглянемо спочатку застосування семантичного фільтра в кінці процесу 
підбору варіантів виправлення та у його середині (6), (7). 

Нехай И/, , - результат фільтрації множини И/,,, із використанням композиції 
функцій / 9...0 /, о ЛИЙ. "2 Й; (для і-1 роль И/, , виконує безпосередньо 
У іс )- Для обох випадків, що аналізуються, вміст И/, , є однаковим, адже вихідна 
множина гіпотез 1 набір функцій, які до неї застосовуються, не відрізняються. 

Таким чином, для того, щоб швидкодія коректора, який реалізує послідовність 
фільтрів (7), була не нижчою за швидкість його роботи за схемою (6), має 
виконуватися нерівність: 


т 
гот (Р. М; з 2 от) Ба зт) Я і бот (Ту) й (9) 
- зі зі 
де И/сопі, , - результат фільтрації слів з И/, , за ознакою близькості за змістом до 


контекстного оточення спотвореного слова. Проаналізуємо, у якому випадку дана 
нерівність буде справедливою. 
Ло за визначенням є фільтром, тому справедливим є твердження 


Лот То УЗ Йсопі; 1, Мсопі, , с Й/ |. Отже, маємо: 
Мсопі, д ЗАЙ о З Же» П10) 


яка була виключена із подальшої обробки 


де ЛИЙ 


зойк бій - частина МНОЖИНИ Ж 


-1?2 
через невідповідність семантичному критерію фільтрації слів. 
Перевірка множин И/ , та Усопі, , За допомогою функцій, які входять до 


складу композицій (6) та (7) відповідно, проводиться, починаючи з фільтра і : 
З Та, Те; 
Исопі,; 4 --Ї з Мсопі,, Исопі,; с Йсопі, | 
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Виходячи з того, що Й/сопі, , С Й, |, можна стверджувати: згідно з (3), 
нерівність Ї ДЖсопул) Я ЙО) Є вірною. 
Відповідно до (2) та (10): 
ДОР) з ДИ сопі, У (АЙ у са) Р» 
ИЙ а Исопі | 0 Г(А 2 РОРАРА з Й соті, С Й. 


Застосування фільтра /.,, характеризується аналогічним чином: 


/ а, а с Й; та Й/сопі; - Й соні а, Мсопі, д С Йсопі,. 


Звідки 
Да 0) ї- Да (Тсопі;) У Да 5 АТ і) -і Ма р Мсопі; У ія 9 ДИ, 


сопі оси 
Исопі,д С Й | 1Т.Д. 


У підсумку на основі властивості 3) (3) функції /Шег отримуємо 


т т 
Р ар 
Езі Каі 


Тому для того, щоб перенесення семантичного фільтра ближче до початку послідовності 
КІІТЕКУ5 сприяло прискоренню роботи орфокоректора, у випадку, який розглядається, 


необхідно, щоб виконувалась умова і бю «а об (9). 


Якщо аналогічним чином провести аналіз умов підвищення швидкодії 
програмних засобів орфокорекції для пар композицій функцій (6) - (8), (7) - (8), 
можна дійти висновку, що при перенесенні семантичного фільтра ближче до початку 
послідовності КИЛТЕК5 коректор працюватиме швидше за умови виконання 


нерІвноктем о (Міо) 19 Ї гоп (Ти) пе і о (М ла) от а (Й 1) ЗЕБОВНІНО: 


Таким чином, для того, щоб обрати варіант розміщення /, 


сопі 


де 


у схемі визначення 
варіантів виправлення, який забезпечує найвищу швидкодію орфокоректора, необхідно 
порівняти час виконання перевірки гіпотез на відповідність контексту за допомогою 
функції /.,, У КОЖНОМУ із згаданих випадків. 

И/, є результатом послідовної фільтрації Й/ |, яка в свою чергу отримується 
шляхом відбору слів з множини ИЙ на (т, Стос 1/ т Тому, згідно з визначенням 
функції /Шет (3), виконання вищезгаданих нерівностей є неможливим, якщо не існує 
жодної відмінності у реалізації /.,,, при зміні її місця у схемі орфокорекції. 

Отже, для визначення існування можливості підвищення швидкодії орфокоректора 
при переміщенні 7, У послідовності фільтрів вмісту словника необхідно дослідити 
специфіку реалізації даної семантичної функції на різних етапах схеми орфокорекції. 
Оскільки послідовності фільтрів (6) та (7) є подібними (в першому випадку функції 
Лот передує композиція з т фільтрів, а в другому - з і фільтрів), далі аналізувати 
будемо тільки два варіанти розміщення функції /.,,,: прямий порядок фільтрації 
гіпотез (6) та інверсний (8). 

Будемо вважати, що: 

- час, потрібний для вибору із словника одного слова за будь-якою ознакою, є 
однаковим для усіх критеріїв відбору в межах задачі орфокорекції; 

- час, потрібний для перевірки слова на відповідність будь-якій ознаці, є однаковим 
для усіх простих формальних фільтрів; 

- будь-яка вибірка слів, підібраних за певним критерієм, зберігає репрезентативність 
відносно інших критеріїв фільтрації. 
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Крім цього, мірою семантичної близькості двох слів вважатимемо довжину шляху 
між відповідними вершинами графа словника, а кількісне оцінювання семантичної 
близькості альтернативи виправлення до контекстного оточення спотвореного слова 
виконуватимемо на основі визначення величини, оберненої мінімальній з довжин 
найкоротших шляхів від заданого слова до контексту за структурою словника |! 1). Для 
забезпечення орфокоректора даними про семантично-асоціативні зв'язки між словами 
природної мови будемо використовувати онтологічний словниковий ресурс у формі 
орієнтованого графу, вершинами якого є лексеми природної мови, поєднані лексико- 
семантичними відношеннями |З9), (11). 

З огляду на те, що із збільшенням дистанції між вершинами графа словника сила 
семантичного зв'язку між ними швидко зменшується |9Ї, слова, відстань від яких до 
контексту перевищує певний поріг тахаїзі, будемо вважати нескінченно віддаленими від 
нього і не включатимемо їх до множини гіпотез. Це дасть змогу отримувати набір 
варіантів виправлення, котрі мають задану міру семантичної близькості до контексту, 
аналізуючи при цьому обмежену частину словникового ресурсу (оточення контекстних 
слів у радіусі тахаїзі). При цьому процедуру визначення слів, близьких за змістом до 
контексту, можна організувати таким чином, що для її успішного завершення достатньо 
обробити вершини графа словника у радіусі К, ., від контексту, де: 


Кур 7 (А), Де Во бе М | (г «з тахаїяг) л «І ) бх обх, )СМ.)єФ)) (Та) 
або В - (г є М (г «з тахаїзг) л (ЕІ ) ох обх, я У (116) 


І 
«« 7 результат попереднього відбору гіпотез, які потрібно перевірити на 


семантичну відповідність контексту; Ра - абстрактна функція перевірки елементів 
заданої множини слів на відповідність іншим критеріям схожості із спотвореним 


словом; Х; - слово контекстного оточення; Ух, ,ух;  - відображення 7-го ступеня 


/ ан 7 


вершини Х,; графа словника (пряме та зворотне). 


Твердження 2. Застосування семантичної функції /,, під час висунення 


сопі 

гіпотез виправлення забезпечує більш швидке отримання результату роботи 

орфокоректора, ніж її використання для остаточної перевірки множини гіпотез. 
Доведення. Будемо аналізувати вершини графа словника, які лежать у радіусі 


Ву - Ттахаїзі від слів контексту (щоб розглянути випадок, коли необхідною є 


обробка максимально припустимої кількості слів, семантично пов'язаних з контекстом 
спотвореного слова). Введемо позначення: 

|сопіехі| - кількість слів контексту, які містяться у словнику; 

у - максимальна кількість лексико-семантичних зв'язків (дуг графа), які має одне 
слово у є Й/,,, З іншими лексемами словника; у має порядок, близький до порядку 


величини |сопіехії. 

а) Інверсна послідовність фільтрів (8). Окіл контексту сопієхі із радіусом 
тахаї8 5 є 

тахаїзі становить 4-1 сопіехі |З У у! Слів 111). Під час виконання /.,,(Й/,, 


іс) ІЗ 
ія 
словника відбирається А слів 1 передається для подальшої фільтрації без проведення 
додаткових перевірок. 
6) Пряма послідовність фільтрів (6). Для перевірки семантичної узгодженості 


гіпотез та контексту спотвореного слова функції /.,, передається 1 й 7 Р 


слів. Разом з цим для роботи фільтра /,,,(Й/,) У будь-якому випадку необхідно 


знати окіл контексту (у даному доведенні - це А слів), а отже, додатково потрібно 
отримати А слів із словника. Виконання А; жд додаткових перевірок закінчує 


роботу даної послідовності фільтрів. 
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Таким чином, інверсний порядок виконання фільтрації спричиняє виконання 
меншої кількості дій і, значить, забезпечує більш швидку роботу функції /",,, (тобто 


соп 


Р . Вище показано, що за умови справедливості даної нерівності 
і от (Рак ) З М солі Ро) вищ ,щозау раведл д р 


можна стверджувати, що час виконання композиції фільтрів (8) є меншим, ніж час 
виконання композиції (6), що 1 потрібно було довести. (Для випадків, коли БК, ., З тахаї5і, 


справедливість зазначених нерівностей зберігається.) 


4. Інверсний контекстно-асоціативний метод 
автоматизованого виправлення орфографічних помилок 


З огляду на викладені вище результати дослідження загальної схеми 
орфокорекції та особливостей її реалізації можна визначити інверсний контекстно- 
асоціативний метод автоматизованої орфокорекції. В основу методу пропонується 
покласти встановлення зворотного порядку фільтрації вмісту словника, оскільки 
доведено факт підвищення швидкості пошуку варіантів виправлення при збереженні 
точності роботи орфокоректора у разі перенесення семантичної складової схеми 
корекції на її початковий етап. 

Згідно з даним методом процедура контекстно-асоціативної автоматизованої 
орфокорекції являє собою послідовне виконання таких дій: 

1) встановлення радіуса пошуку г рівним мінімально припустимому значенню; 

2) висунення гіпотез виправлення за ознакою семантичної близькості до 
контекстного оточення спотвореного слова; 

3) перевірка гіпотез виправлення на подібність до спотвореного слова за 
формальними ознаками; 

4) збільшення радіуса пошуку гіпотез виправлення та перехід до п. 2 даного 
методу у випадку, якщо, по-перше, / 4 тахаїзі, а по-друге, якщо на заданій відстані г 
від вершин графа словника, котрі відповідають словам контексту, не знайдено 
жодного слова, яке задовольнило б усім критеріям схожості зі спотвореним словом; 
в іншому разі - закінчення пошуку варіантів виправлення. 

Важливою особливістю методу є Його ітераційний характер. Він дозволяє 
зменшити кількість дій щодо обробки слів під час орфокорекції і тим самим 
підвищити швидкість її виконання. 


5. Дослідження ефективності інверсного 
контекстно-асоціативного методу орфокорекції 


Для експериментальної апробації запропонованого методу орфокорекції, а 
також для перевірки справедливості теоретичних тверджень, які доводяться у статті, 
використано масив словосполучень, які характеризуються різною потужністю 
множин слів, які складають контекст спотвореного слова; різною кількістю помилок, 
припущених у слові (І та 2 помилки); різною силою семантичного зв'язку контексту 
із спотвореним словом. 

Для підтвердження досягнення найкращих показників роботи коректора за 
умови застосування фільтрів до вмісту лексико-семантичного словника в інверсному 
порядку проаналізовано результати функціонування відповідного програмного 
забезпечення у випадках, коли алгоритмом його роботи передбачено: 

ТГ) використання семантичної функції /7,,, на початку та наприкінці послідовності 


фільтрів (прямий та інверсний порядок фільтрації); 
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2) проведення спроб виправлення одно- та двократних помилок; 

3) встановлення радіуса околу контекстного оточення спотвореного слова за 
структурою графа словника рівним від І до 5 переходів (тахаїзі - 1...5). 

Крім того, показники роботи орфокоректора порівнюються із аналогічними 
показниками відповідного модуля, вбудованого до пакета М5 М/ога, функціональність 
якого сьогодні найчастіше використовується для обробки текстів. 


-ч9-- прямий порядок, | помилка | 77867 інверсний порядок, 1 помилка! (77897 прямий порядок, | помилка | 7-87 інверсний порядок, І помилка 
--Ф- прямий порядок, 2 помилки | 7-8 інверсний порядок, 2 помилки| (|--Ф- "прямий порядок, 2 помилки | - Мк інверсний порядок, 2 помилки 
12096 --е- 
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Рисунок 1 - Графік залежності відносного часу роботи семантичної функції (а) 
та орфокоректора взагалі (б) від особливостей реалізації алгоритму орфокорекції 


Різноманітність даних, які надходять на вхід орфокоректора, робить неможливим 
отримання узагальненої оцінки часу корекції в секундах (чи інших одиницях виміру 
часу). Тому результати вимірювань часових значень наводяться відносно відповідних 
показників роботи коректора, коли він виконує виправлення однократних помилок 1з 
застосуванням фільтрів вмісту словника в прямому порядку. 

Як бачимо на рис. Іа, проведення фільтрації вмісту словникового ресурсу в 
інверсному порядку приводить до покращення часових характеристик роботи 
функції 7, (порівняно із застосуванням /,, В Кінці фільтрації) незалежно від 
радіуса пошуку варіантів виправлення у графі словника. 

При застосуванні фільтрів у прямому порядку час виконання / 


"жи При виправ- 
ленні двократних помилок є більшим, ніж час її роботи при корекції слів з одинар- 
ними помилками; при застосуванні фільтрів в інверсному порядку дані часові 
показники практично збігаються. 

На рис. 1 не подано характеристики роботи М5 УМога, оскільки час його роботи 
можна порівнювати з часом роботи розробленого орфокоректора тільки за умови 
аналізу околу контексту з радіусом К - тахаїзі. У разі тахаїз 1«- 4 швидкість роботи 
М5 Мога значно (до 3 разів) поступається швидкодії нового орфокоректора. 


ТЖ! ва шо Пп. виконан і гальний ч пров ННЯ 
Отже, жню і (Міс ) - вні (ИЙ) ( 3) о ба аетреводе 


орфокорекції повинен бути меншим при застосуванні фільтрів до вмісту слов- 
никового ресурсу в інверсному порядку, що і підтверджується рис. 16. 

Практичні дослідження підтвердили справедливість теоретично прийнятої 
комутативності композиції функцій /йег. Разом з тим, очевидною є перевага 
розроблених програмних засобів орфокорекції за критерієм точності над модулем 
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виправлення помилок М5 УМ/ога (рис. 2). Найімовірнішою причиною таких результатів 
є припущення про те, що останній не реалізує перевірки варіантів виправлення на 
семантичну узгодженість з контекстом спотвореного слова |2). 


-чан- Виправлення І помилки -щ- Виправлення 2 помилок 
"ж М5Мога 


8590 


7590 


6590 


550 


4590 


точність орфокорекції (9) 


3590 


2590 


1 2 3 4 5 
максимальний радіус околу контексту (тахаізі) 


Рисунок 2 - Графік залежності точності роботи програмних засобів 
від реалізації алгоритму орфокорекції 


Факт, що розроблене ПЗ, яке реалізує запропонований метод автоматизованої 
орфокорекції, не характеризується 100 У точністю роботи, пояснюється тим, що, з 
одного боку, при виправленні однократних помилок слова, які мають двократні 
помилки, залишаються невиправленими, а з іншого боку, спроба виправлення 
двократних помилок спричиняє додавання до результатів зайвих слів у випадку 
корекції слів, які мають однократну помилку. 

Можна відмітити ще одну важливу закономірність: точність виправлення 
помилок перестає зростати при тахаїзі 2 4. Отже, з точки зору досягнення найвищої 
точності роботи орфокоректора збільшувати далі радіус пошуку гіпотез недоцільно. 

Перспективним напрямком подальшого вивчення питання побудови орфо- 
коректорів на основі контекстно-асоціативних методів визначення варіантів 
виправлення є введення ранжування семантичних відношень лексико-семантич- 
ного словникового ресурсу за певними критеріями та врахування ваги відповідних дуг 
графа під час вибору його наступних вершин для аналізу. 


Висновки 


Доведено факт збереження точності, визначено умови покращення часових 
характеристик роботи коректора при перенесенні семантичного фільтра гіпотез на 
початок послідовності функцій підбору варіантів виправлення. Показано, що 
найкращі показники щодо швидкості роботи ПЗ забезпечує перенесення контекстно- 
асоціативної обробки текстових даних на етап висунення гіпотез. 

Запропоновано інверсний контекстно-асоціативний метод виправлення 
орфографічних помилок шляхом ітеративного чергування процедур відбору гіпотез 
із словника за ознакою семантичної близькості до контексту та наступної їх пере- 
вірки на відповідність формальним критеріям подібності до спотвореного слова, 
такий, що забезпечує підвищення швидкості та точності роботи орфокоректора за 
рахунок зменшення потужності множини слів, які при цьому обробляються. 
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Запропоновано трактування точності корекції як відношення числа вибраних 
програмою вірних варіантів написання слова до загальної кількості отриманих 
варіантів, що дозволяє оцінювати точність виправлення помилок у випадку підбору 
гіпотез з великого за обсягом словника, а також фіксувати зміни у загальній кіль- 
кості варіантів виправлення, запропонованих програмою. 

Дослідження на практиці ефективності запропонованого методу орфокорекції 
підтвердило теоретичні положення, викладені у статті, та дозволило визначити 
рекомендовані значення параметрів алгоритму виправлення помилок, встановлення 
яких забезпечує ефективну роботу програмного орфокоректора. 
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Т.Н. Заболотняя, А.Ю. Михайлюк, Е.С. Михайлюк 

Инверсионньтгй контекстно-ассоциативньтгй метод автоматической орфокоррекции 

Теоретически обусловлен и предложен инверсионньй контекстно-ассоциативньй метод автоматического 
исправления орфографических ошибок, которьш обеспечиваєт повьшіениє скорости и точности 
работь! соответствующего программного обеспечения. Дано определение показателя результативности 
функционирования орфокорректора - точности его работь. Показана зффективность использования 
предлагаємого метода для исправления орфографических ошибок в массиве гетерогенньх словосочетаний 
по критериям скорости и точности коррекции. 
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